多机构增强学习(MARL)已成为解决分散决策问题的有用方法。近年来提出的许多突破性算法一直在稳步增长。在这项工作中,我们仔细研究了这一快速发展,重点是在合作Marl的大量研究中采用的评估方法。通过对先前工作进行详细的荟萃分析,涵盖了从2016年至2022年接受出版的75篇论文,我们引起了人们对真正进步率的质疑的令人担忧的趋势。我们在更广泛的背景下进一步考虑了这些趋势,并从单一AGENT RL文献中获得了有关类似问题的灵感,这些建议以及仍然适用于MARL的建议。将这些建议与我们分析的新见解相结合,我们提出了合作MARL的标准化绩效评估方案。我们认为,这样的标准协议,如果被广泛采用,将大大提高未来研究的有效性和信誉,使复制和可重复性更加容易,并提高该领域的能力,通过能够通过能够准确评估进度的速度进行跨不同作品的合理比较。最后,我们在我们的项目网站上公开发布荟萃分析数据,以供未来的评估研究:https://sites.google.com/view/marl-andard-protocol
translated by 谷歌翻译
允许代理商通过沟通共享信息对于解决多代理增强学习中的复杂任务至关重要。在这项工作中,我们考虑了给定通信协议是否可以表达任意政策的问题。通过观察许多现有协议可以看作是图神经网络(GNN)的实例,我们证明了联合动作选择与节点标记的等效性。通过证明其表达能力的标准GNN方法,我们从现有的GNN文献中汲取了限制,并考虑使用以下方式增强剂观察:(1)独特的代理ID和(2)随机噪声。我们提供了有关这些方法如何产生普遍表达性交流的理论分析,并证明它们能够针对相同代理的任意行动集。从经验上讲,这些增强被发现可以改善需要表达性交流的任务的性能,而通常发现最佳通信协议是任务依赖性的。
translated by 谷歌翻译
本文有助于将读者介绍到多功能增强学习(MARL)领域及其与因果关系研究的方法的交叉。我们突出了Marl中的关键挑战,并在因因果方法如何协助解决它们的情况下讨论这些问题。我们促进了对Marl的'因果首先'的透视。具体而言,我们认为因果关系可以提高安全性,可解释性和稳健性,同时还为紧急行为提供了强烈的理论保障。我们讨论潜在的挑战解决方案,并使用这种背景激励未来的研究方向。
translated by 谷歌翻译
沙漠蝗虫爆发威胁着非洲大部分粮食安全,多年来影响了数百万人的生计。已经证明了机器学习(ML)作为蝗虫分布建模的有效方法,可以帮助预警。 ML需要大量标记数据培训。在蝗虫上最公开的标记数据是仅存在数据,其中仅记录在位置处存在的蝗虫的目击。因此,使用ML的事先工作已经采取了伪缺席的生成方法作为一种规避这个问题的方法。最常用的方法是在感兴趣区域中随机采样点,同时确保这些采样的伪缺位点至少是远离真实存在点的特定距离。在本文中,我们将这种随机抽样方法与更先进的伪缺席生成方法进行比较,例如环境分析和最佳背景范围限制,专门用于预测非洲的沙漠蝗虫滋生地。有趣的是,我们发现,对于我们测试的算法,即Logistic回归,梯度增强,随机森林和最大熵,全部流行,物流模型比预测准确性和更复杂的集成方法显着更好地表现出更好的更好。 F1得分。尽管背景范围限制与随机采样增压性能的组合方法相结合,但对于LR而言,这不是这种情况,而是在使用环境分析时获得了显着的改进。鉴于此,我们得出结论,一种更简单的ML方法,如Logistic回归与更先进的伪缺失生成,特别是环境分析,可以是预测非洲蝗虫育种场所的明智和有效的方法。
translated by 谷歌翻译
虽然多智能体增强学习被用作学习代理之间的紧急沟通的有效手段,但现有的工作几乎专注于与离散符号的沟通。人类的沟通通常在连续声道上发生(和出现);人类婴儿通过与他们的照顾者连续的信号传导来获得语言。因此,我们问:我们是否能够通过加强学习培训的连续沟通渠道在代理之间观察到的紧急语言?如果是这样,渠道特征对新兴语言的影响是什么?我们提出了一种环境和培训方法,以作为对这些问题进行初步探索的手段。我们使用一个简单的消息环境,其中“扬声器”代理需要将概念传达给“侦听器”。扬声器配备了一个声码器,将符号映射到连续波形,这通过有损的连续通道,听众需要将连续信号映射到概念。使用Deep Q-Learning,我们表明基本的组成性以读取的语言表示出现。我们发现在传送未经证明的概念组合时,噪音在通信渠道中必不可少。我们展示我们可以通过将倾向于“听到”或“口语”英语的护理人员来实现紧急沟通。最后,我们描述了我们的平台是如何作为未来工作的起点,这些工作采用深度加强学习和多种子体系统的组合来研究我们在语言学习和出现中持续信令的问题。
translated by 谷歌翻译